在做数据的统计分析之前, 一般需要对数据进行预处理, R语言中提供了相应的函数来完成数据管理。

数据排序

有些情况下, 数据集需要排序后才能得到更多信息, 在R语言中有sort(),rank(),order() 等函数用于数据排序。 sort()函数是对向量进行从小到大的排序; rank() 函数返回向量中每个数值对应的秩; order()函数返回的值表示位置, 依次对应的是向量的最小值、 次小值、第三小值 $\cdots$, 最大值; dplyr 包中的 arrange() 函数针对数据框, 返回基于某列排序后的数据框, 方便多重依据排序。

数据集合并

当数据较为分散时需要将所需数据都合并到一起,合并方式包括横向合并 (添加列)以 及纵向合并 (添加行)
(1) 添加列
可使用merge()函数或者cbind()函数横向合并两个数据集。使用cbind()合并时要注意意合并对象必须拥有相同的行数, 并且以相同顺序排列。 merge()函数的基本语法格式为: merge(x, y, by = intersect(names(x), names(y)), by.x=by, by.y=by, all = FALSE) 其中, x, y 为需要合并的数据集; by、by.x 、by.y表示数据集联结依据的变量; all 值为逻辑值, 倶认值为 FALSE, 输出结果中只包含 x 、 y 数据集共有行, 若设置为 TRUE, 结果表示为x,y数据集的并集。

(2) 添加行
使用rbind()函数纵向合并数据集。要求两个数据框必须拥有相同的变量,顺序不一定相同。纵向合并通常用于向数据框中添加观测值。

缺失值处理

在处理数据过程中, 不可避色地会出现数据缺失的现象。在 R 语言中缺失值以符号 NA(Not Available, 不可用) 表示; 不可能出现的值通过符号 NaN (Not a Number, 非数值缺失值相应的位置为 TRUE, 其他为 FALSE。在数据处理过程中, 大多数函数中都存在参数 na.rm=TRUE 选项用于移除缺失值。也可以通过函数 na.omit()移除所有含有缺失值的行。

摘自: